Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter

نویسندگان

چکیده

Imbalanced dataset merupakan hal yang sering ditemukan secara alami dalam proses penambangan data. Kondisi ini sangat mempengaruhi keakuratan klasifikasi data seperti terjadi komentar program Kampus Merdeka peneliti lakukan. Penelitian akan fokus pada penanganan untuk meningkatkan kinerja berasal dari aplikasi Twitter. Data diklasifikasikan ke empat kelas yaitu 0 (untuk informasi), 1 opini), 2 pertanyaan), dan 3 out of topic). Metode digunakan balancing adalah Undersampling, Oversampling menggunakan SMOTE ADASYN, serta Random Combination Sampling. Evaluasi performa dilakukan algoritma Support Vector Machine (SVM) dengan perbandingan komposisi training testing 80:20. pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) nilai max_features 3000, 5000, 7000. Hasil pengujian awal menunjukan bahwa akurasi F1-score berurut-urut 0,7 0,7. Sedangkan metode dapat F1-score, kecuali penerapan Undersampling. terbaik ditunjukan oleh ADASYN sebesar 0,9 0,9. Penggunaan TF-IDF juga hasil klasifikasi, jumlah 5000.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Watermarking pada Video: Robustness, Impercetibility dan Pendekatan untuk Domain Terkompresi

ABSTRAK Meningkatnya penggunaan dokumen digital khususnya multimedia (citra, audio, video) dan kemudahan transmisi data melalui Internet meningkatkan kebutuhan terhadap keamanan data terhadap pelanggaran hak cipta. Watermarking merupakan pendekatan yang telah banyak digunakan dan merupakan bagian dari Digital Right Management (DRM) yang dibuat untuk memenuhi kebutuhan tersebut. Khusus untuk vid...

متن کامل

Klasifikasi Data Cardiotocography Dengan Integrasi Metode Neural Network Dan Particle Swarm Optimization

Backpropagation (BP) adalah sebuah metode yang digunakan dalam training Neural Network (NN) untuk menentukan parameter bobot yang sesuai. Proses penentuan parameter bobot dengan menggunakan metode backpropagation sangat dipengaruhi oleh pemilihan nilai learning rate (LR)-nya. Penggunaan nilai learning rate yang kurang optimal berdampak pada waktu komputasi yang lama atau akurasi klasifikasi yan...

متن کامل

The Development of Semantic Web to Search Student Final Study Collections (Work Practice and Final Project)

1. H. F. Gunawan, “Penerapan Web Semantik Untuk Aplikasi Pencarian Pada Repositori Koleksi Penelitian ,Studi Kasus : Program Studi Sistem Informasi Stmik Mikroskil Medan,” vol. 15, no. 1, pp. 51–60, 2014. 2. I. A. S. Wicaksono, N. Charibaldi, and H. Jayadianti, “Penerapan Teknologi Semantic Web untuk Menentukan Pilihan Jalur Bis Trans Jogja,” Semin. Nas. Inform. 2010 (semnasIF 2010), vol. 2010,...

متن کامل

Probabilistic Latent Semantic Analysis (PLSA) untuk Klasifikasi Dokumen Teks Berbahasa Indonesia

Abstrak Salah satu pekerjaan yang ada di dalam mengelola dokumen adalah bagaimana menemukan intisari dari dokumen. Topic modeling merupakan teknik yang dikembangkan untuk menghasilkan representasi dokumen berupa kata-kata kunci dari dokumen. Kata-kata kunci tersebut yang akan digunakan dalam proses pengindeksan serta pencarian dokumen untuk ditemukan kembali sesuai kebutuhan pengguna. Pada pene...

متن کامل

Klasifikasi Komponen Argumen Secara Otomatis pada Dokumen Teks berbentuk Esai Argumentatif

Abstrak Dengan pengenalan argumen secara otomatis dari dokumen teks, penulis esai dapat melakukan inspeksi pada teks yang mereka tulis. Hal ini akan membantu penilaian esai secara lebih objektif dan tepat karena penilai esai akan melihat seberapa baik komponen argumentasi terbentuk. Beberapa peneliti mencoba untuk melakukan pendeteksian dan klasifikasi argumen serta penerapannya pada berbagai d...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Edu Komputika Journal

سال: 2023

ISSN: ['2599-297X', '2252-6811']

DOI: https://doi.org/10.15294/edukomputika.v9i2.61854